Chapitre 6 [coord] Quelles questions se poser sur la gestion des données ?
- Allez-vous utiliser des données dans votre projet ?
- Sont-elles accessibles ?
- Sont-elles publiques ?
- Sous quel format sont-elles présentées ?
- À quelle fréquence sont elles mises à jour ?
- Qui sont les créateurs de ces données ?
- Font-ils partie du projet ?
- Si non, ce serait bien de réussir à les intégrer de temps en temps
- Quelle est la taille des données ?
- Quelle est la vraie taille des données, en espace disque ?
- Ces données peuvent-elles entrer en entier sur le dépôt git, potentiellement libre et accessible à tous ?
- Votre projet nécessite-t-il le stockage des données sur des machines utilisateurs (Création d’un livre numérique en local) ?
- Vous aurez besoin de documenter comment les récupérer, les installer et y accéder
- Votre projet nécessite-t-il un accès pour un serveur web (Mise en ligne d’une application Shiny) ?
- Les données peuvent-elles être stockées dans une base de données SQL ?
- La base est-elle accessible aux utilisateurs du projet ?
- La base est-elle accessible aux serveurs de développement ?
- Avec quelles protections ?
Selon les cas, plusieurs méthodes de stockage et de communication avec R sont possibles.
- {rappdirs} permet de stocker des données en local sur les postes des utilisateurs.
- {pins} permet de faciliter la mise à jour et l’exploitation de fichiers plats externes.
- {duckdb} permet d’embarquer une base de donnée.
- {DBI} et autres bases de données permet de se connecter à des bases de données existantes.
Cet article peut intéresser les [Dev] : How to distribute data with your R package